中国团队让AI拥有“视觉想象力”,像人类一样脑补画面来思考
图8: 在DPG-Bench上的表现中间视觉思维生成对视觉生成任务的显著效益实验结果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上,TwGI-Anole
图8: 在DPG-Bench上的表现中间视觉思维生成对视觉生成任务的显著效益实验结果表明,TwGI-Anole-7b-Obj 在 GenEval 和 DPGBench 两个基准上都始终优于基线模型 Anole-7b。在 GenEval 上,TwGI-Anole
国家知识产权局信息显示,湖南快乐阳光互动娱乐传媒有限公司申请一项名为“一种视频互动方法及相关装置”的专利,公开号CN120075493A,申请日期为2025年03月。
阿里云推出了通义灵码 AI IDE,这款深度适配千问3的人工智能开发环境具备强大的编程智能体模式、长期记忆和行间建议预测功能,同时提供行间对话功能,显著提升开发效率,已成为国内最受欢迎的编程辅助工具之一。
2025年5月28日,一篇题为《Spatial Knowledge Graph-Guided Multimodal Synthesis》的arXiv预印本研究(编号2505.22633v1)揭示了人工智能领域的新突破——通过空间知识图谱(SKG)指导多模态数据
在2025年5月28日发布的arXiv预印本论文《RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction》中,研究者提出了一种突破性的图
尊界S800不仅搭载了全球领先的引擎技术,更配备了一套先进的“世界行为模型”,这一创新设计使得车辆能够实现“AI教AI”的自我学习与优化。该系统赋予车辆全模态感知能力,仿佛一位经验丰富的礼宾司机,无论是面对狭窄车位、复杂通道,还是会车避让、跨楼层行驶等多样场景
有投资者在深交所互动平台向盛天网络提问:"看到公司推出了ai陪伴的产品,是对于社交和ai的结合,请问具体的特点是什么?未来有没有结合智能机器人和ai陪伴的产品出现?如何布局的"公司回复称:"尊敬的投资者您好,公司社交业务方面已经完成了AI应用层的探索与落地。公
在目前正在进行的尊界 S800 发布会上,官方介绍了该车首发搭载的 HUAWEI ADS 4 智驾系统。
5月30 日,小米官方公众号“Xiaomi MiMo”宣布,其多模态大模型 Xiaomi MiMo-VL 正式开源。MiMo-VL-7B 的 RL 前后两个模型以及支持 50 +评任务的框架开源至 GitHub。
这一成绩不仅刷新了国内AI模型在国际多模态测评中的最高得分纪录,更超越谷歌、OpenAI等全球顶尖团队,与商汤科技SenseNova(80.4分)、上海AI LAB InternVL(79.1分)占据前10名的半壁江山,展现了中国在通用人工智能领域的突破性进展
“为什么我的视频明明制作精良,却在AI搜索中毫无存在感?”这或许是不少营销人员的困惑,揭示了当前视频内容面临的普遍困境。当用户搜索“2025年旗舰手机影像系统对比”时,AI助手在不到一秒内就完成了知识图谱检索到答案生成的全过程,传统关键词堆砌的SEO策略在生成
只能通过文字控制,无法灵活结合图片作为上下文;无法连续编辑或保留角色特征,缺乏“认知连续性”;局部编辑需要复杂遮罩或 finetuning;多轮操作后常常图像退化(失真、风格丢失);编辑速度慢,无法满足实时交互需求。
在数字经济时代,数据早已被公认为企业的核心资产。然而,随着生成式AI的崛起,数据资产的定义、价值和管理方式正在发生根本性变革。深耕数字营销二十余年,我们亲历了从"数据即记录"到"数据即洞察",再到今天"数据即资产"的每一次认知升级。而在这个新阶段,生成式引擎优
AI吞噬26%工作岗位与气候变化重构供应链的警报同时拉响,技术革命的指挥棒正在向商业世界传递新的生存法则。东方战略创践导师姜岚昕在《战略执行系统》中揭示的“第一定律”正在技术革命中显形:OpenAI用全球2%的AI人才撬动80%的行业创新,英伟达CUDA生态绑
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。
Xiaomi MiMo 官方公众号今日发文宣布,小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示,其在图片、视频、语言的通用问答和理解推理等多个任务上,大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,并且在 GUI Ground
当OpenAI以65亿美元收购硬件公司io、谷歌Gemini2.5Pro登顶LMArena排行榜、Meta推出全球能效比最高的AthenaX1芯片,全球AI竞争已从软件算法转向产品、生态较量。
近年来,多模态大语言模型(MLLM)发展迅速,并在图像、视频、音频等领域取得了突破性成果。然而,相较于这些研究较为成熟的模态,时间序列这一类型的数据与大模型结合的系统研究却较为匮乏。尽管已经有 TimeLLM 等工作尝试将LLM应用于时序任务,但这些研究大多局
本书是北京市文化科技融合发展研究基地的重要成果,对北京文化科技融合发展的现状和问题进行了综合分析和评价比较,在归纳重点文化行业科技创新的特点和趋势基础上,结合典型案例分析,提出了促进北京文化科技融合发展的思路举措。本书的创新之处在于基于区域文化科技融合发展评价
在新版本的测评中,DeepSeek-R1-0528在数学、编程以及通用逻辑等领域均取得了卓越的成绩,不仅在国内模型中独占鳌头,而且在整体表现上已经逼近了国际顶尖模型,如o3和Gemini-2.5-Pro。